日志

智能软件的目的、奖惩预期问题

已有 386 次阅读2015-6-12 21:03 |个人分类:智能科学

智能软件的目的、奖惩预期问题

这里主要讨论的是，理论上，在编程所获得的这些简单结构与功能关系上（通过文件系统及操作系统编程获得），智能机器人的奖惩系统是如何运行而获得高级的奖惩功能的（论述的只是部分，有些我在其它文章中论述证明了的功能，我在这里可能没有论述）。

（当然现在我在编程上把握的只是结构与功能关系，至于具体的正确的参数与函数关系，我现在还不能精确的给出）

下面给出的相关程序省略了许多，要看完整的请看我的关于文件系统及操作系统的编程的相关部分。

一、结构及运行模式（包括目的的确定编程）

文件系统的架构是：

它分为感觉中枢、强度中枢、奖惩中枢（包括奖惩预期中枢）、状态中枢。

感觉中枢主要包括的是感觉的联络区，直接接受处理过的传入刺激信息，包括视觉、听觉、痛觉等等。

每个中枢都有兴奋强度，它们的易兴奋的与不易兴奋的都传入强度中枢相应的记忆柱，并在相应记忆柱中被总和起来（易兴奋的传到易兴奋的，不易兴奋的传到不易兴奋的）。兴奋的强度中枢的记忆柱会根据兴奋强度相应强度的兴奋奖惩中枢。不易兴奋的主要对易兴奋的起到抑制作用，影响奖惩预期表征奖惩强弱的主要是易兴奋的记忆柱。

中介奖惩刺激，易兴奋的记忆柱兴奋到一定强度就会通过强度中枢兴奋奖惩中枢。刺激兴奋感觉中枢，由于刺激没有成为习惯性兴奋，易兴奋的记忆柱会强烈兴奋，兴奋对应的强度中枢，强度中枢的兴奋传入奖惩中枢，强度中枢的兴奋越强，对奖惩中枢的兴奋越强。

痛觉等的刺激与中介感觉相似。饥饿感觉及饱感可由专门的程序来控制而在不同的状态下不同强度的兴奋奖惩感觉传入中枢，最终的路径与其它奖惩传入的路径相似。

奖惩刺激由相应的感觉中枢来实现。它兴奋相应的强度中枢（其兴奋数是中介刺激的3倍），兴奋能力也应强于中介刺激。

如下图：

SHAPE \* MERGEFORMAT

兴奋的感觉中枢联络区

1 2 （数字代表传出动作） 3 4

兴奋强度中枢

兴奋奖惩预期中枢

其它感觉中枢联络区

奖惩中枢

状态中枢

兴奋强度中枢的联络区

刺激通过强度中枢兴奋奖惩中枢，奖惩中枢兴奋它的联络区，它的联络区同时也受到其它联络区及对应状态中枢的易化兴奋，并产生奖惩预期，并与感觉中枢的联络区建立记忆联系。

相应编程说明：

文件系统的case 4这一段程序，编写的是各个中枢传出纤维到强度中枢，强度中枢传出纤维到奖惩中枢，奖惩中枢再传出纤维到奖惩预期中枢。其功能表现是各个中枢的兴奋强度总和（配合操作中枢的相应程序）传出到其对应的强度中枢，然后感觉中枢及其联络区对应的强度中枢根据其兴奋强度兴奋奖惩中枢，奖惩中枢以及各个联络区易化兴奋奖惩中枢的联络区的相应记忆柱。

也就是说智能机器人的奖惩预期受到奖惩刺激及经验回忆的影响（感觉中枢及其联络区）。

Case 4 '不需要传到奖惩。传到第10中枢。是易兴奋的记忆柱传到易兴奋的记忆柱，不易兴奋的传到不易兴奋的。

for zjzss＝1 to 50

For oplengthN = 1 To clength(zjzss) '

For opwidthN = 1 To cwidth(zjzss)

For opheightN = 1 To cheight(zjzss)

……

Next 'for oplengthN＝1 to clength(zjzss())

Next 'for opwidthN＝1 to cwidth(ccenter(n,1))

Next 'for opcheightN＝1 to cheight(ccenter(n,1)

next 'zjzss

end if

下面是强度中枢的纤维如何传入奖惩中枢的程序（具体的见文件系统相应的程序部分）

‘设置奖惩传入。刺激传入的时候，根据中枢传到10中枢相应的记忆柱，强度是传入的总和，兴奋到一定强度传入奖惩中枢。前9个是感觉传入，主要中介奖惩。随后16与16分别是奖惩感觉，如痛觉，或奖赏的感觉。它们都传入奖赏中枢或惩罚中枢。

for qdjc=1 to 50‘中介奖赏

'15,1是奖赏中枢，2是惩罚中枢

……

next qdjc

for qdjc=1 to 16 '奖赏

……

next qdjc

for qdjc=1 to 16 '惩罚

……

next qdjc

奖惩中枢的纤维根据兴奋强度传入它的联络区的相应的记忆柱，而其联络区是奖惩预期的地方。

‘传入奖惩中枢强弱的联络区。

for jc=1 to 2

for yu=1 to 2

……

Next yu

Next jc

jczslaber=0

操作软件的case 9这段程序是强度中枢针对以上结构的计算

call xfcc(xfrecordnumber,qlabel, subzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk,label,z, jyzxfqdlabel)

上面这段程序是传出到奖惩中枢。下面的是传出到其联络区（强度中枢）。

’Z=1表示传出的是根据记忆柱的兴奋强度传出。传出到其联络区

Z=1

call xfcc(xfrecordnumber,qlabel, subzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk,label,z, jyzxfqdlabel)

而操作软件的“奖惩部分”是对奖惩及奖惩预期中枢的计算。

奖惩中枢传出到奖惩预期中枢的机制与强度中枢传出到其联络区的机制相似。

上面讨论了智能软件奖惩系统的各个组成结构及它们之间的功能关系，下面讨论运行模式。

主注意目的对象的动力预期的计算特点。先看下面的程序（在操作系统的奖惩部分）。

‘获得9个柱的兴奋强度9*2=18，只计算易兴奋的动力预期。奖与惩

yPjqdyq=0

ycfPjqdyq=0

For yqqdjsz=1 to 9

……

yaacyqjs=yaacyqjs+yqdyqjs (yqqdjsz)* yqqdjsz- ycfqdyqjs(yqqdjsz)* yqqdjsz‘获得环境状态下主注意目的对象总的奖惩预期

通过上面的程序片段，我们可知：计算奖惩预期主要是对奖惩预期中枢的易兴奋的记忆柱的兴奋强度的计算，这种兴奋不是选择性兴奋，而是存在兴奋性记忆联系就会兴奋，因而这些易兴奋的记忆柱的兴奋强度受到以下因素的影响，1奖惩中枢的兴奋。2状态中枢的易化。3记忆影响。记忆使它受到了皮质中枢的各个联络区的兴奋影响（它们传出纤维到奖惩预期中枢）。

智能软件对环境的适应

每种兴奋（包括回忆所产生的兴奋）都可作为中介兴奋传入，弱的兴奋奖惩中枢，成为注意对象的刺激传入兴奋较强，成为中介奖惩的中介兴奋传入对奖惩中枢的兴奋相对较强。

奖惩中枢兴奋后，会兴奋奖惩预期中枢，而奖惩预期中枢又会与传入奖惩预期中枢的兴奋的其它联络区建立兴奋性记忆联系（但它不传出）。

奖惩预期中枢的兴奋又会决定主注意目的对象，包括对象及其兴奋强度。影响状态中枢的兴奋，状态中枢的兴奋又影响皮质的兴奋。

对智能软件来说，随时都有主注意目的对象，主注意对象，感觉传入，各种回忆并产生影响（在每个兴奋周期都有对主注意目的对象，主注意对象，感觉传入，各种回忆的读写。select case zsk 1，2，3，分别表示对记录在展示框中的主注意目的对象，主注意对象，感觉传入的读写计算）。

一般情况下，越能带来奖赏的思想行为，越是被智能机器人认知为有益的思想行为（这是我们设计奖赏刺激的目的，与我们的设置有关。越是有益的思想行为越是能带来更多的奖赏）。而越能成为主注意目的对象。

主注意目的对象，是智能机器人在环境状态下，“认识到的”最能带来奖赏的（奖赏越强，动力越强。（下面这些程序主要是根据我的理论进行了编程设置，一些参数与关系的设置还需要大改进）下面这段程序计算的是，注意到的相对稳定的最能带来奖赏（动力最强）的对象成为主注意目的对象。

if jslabel=>3 and yaacyqjs >qdmdjcyq*1.30 then

……

if jslabel=>3 then

qdmdjcyq = yaacyqjs ‘目的对象的动力预期值发生改变持续到下一周期。

30%label=0

end if）。

与主注意目的对象建立的记忆联系强的往往是与奖惩密切联系的对象（这样的对象往往成为过主注意对象与主注意目的对象）。下面的小程序是主注意目的对象与主注意对象在状态中枢的记忆强弱的计算。这些计算表明了，与奖惩关系越强的对象，其与其它对象在状态中枢建立的记忆联系越强，由于状态中枢的易化作用，就会带来其与其它对象建立的记忆联系越强。

case 1 'zzymddx

主注意目的对象

……

zzymddxqd=pjxfqd*n*1.3+ tcxfqda+ pjxfqd*n1 '获得主注意目的对象的兴奋强度

（这个等式表明了，主注意目的对象的兴奋强度zzymddxqd，与主注意目的对象的动力Qdmdjcyq，主注意对象对应的动力Acyqjs及它受到的易化密切相关。而兴奋越强，记忆会越强。）

‘主注意对象引起的动力改变与主注意目的对象建立记忆联系。

if n1>0 then

jjyzxfqd= pjxfqd*n1*1.2 + jjyzxfqd

else

……

call xfcc(xfrecordnumber,qlabel,subjyzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk,z) （兴奋传出主要是对状态中枢其它兴奋了的基本记忆柱群的兴奋传入）

case 3 'zzydx

主注意对象

……

jcjyzxfqd=jjyzxfqd-cjyzxfqd+ Acyqjs+ Qdmdjcyq

（这个等式表明了，主注意对象的兴奋强度jyzxfqd，与主注意目的对象的动力Qdmdjcyq，主注意对象对应的动力Acyqjs及它受到的易化密切相关。而兴奋越强，记忆会越强。）

n=jcjyzxfqd／pjjcqd ‘除于基础奖惩兴奋

if n>=0 then

jyzxfqd=3*n*jyzxfqd ‘主的兴奋强度

jjyzxfqd=jjyzxfqd+jyzxfqd／5

else

……

call xfcc(xfrecordnumber,qlabel,subjyzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk,z) （兴奋传出主要是对状态中枢其它兴奋了的基本记忆柱群的兴奋传入）

根据主注意对象与主注意目的对象的编程可知：随时都有目的与主注意目的（每个兴奋周期都存在它们的选择与兴奋），目的通过它的持续的易化，影响智能机器人的思想行为（记忆柱的兴奋）的方向，对象的奖惩预期值决定了目的地持续与转换。主注意对象是是意识内容的组成它是智能机器人“大脑”的主要兴奋点，是影响下一刻兴奋的最主要因素。

下面的小程序表示状态中枢兴奋的记忆柱对相应的皮质基本记忆柱群的易化或抑制。

'易化皮质对应的基本记忆柱群。

get 8,xfrecordnumber-78+87,xfrecordnumber

……。

case 4 ' ztzs

状态中枢

'get '获得状态中枢奖与惩的兴奋强度，进行整合，然后乘以，获得主的兴奋强度

'put '写入重新计算获得的奖惩的兴奋强度加主的五分之一。

……

jcjyzxfqd=jjyzxfqd-cjyzxfqd

n=jcjyzxfqd／pjjcqd ‘除于基础奖惩兴奋

if n>=0 then

jyzxfqd=n*jyzxfqd+ tcxfqda ‘主的兴奋强度

jjyzxfqd=jjyzxfqd+jyzxfqd／5

else

jyzxfqd=-1／n*jyzxfqd+ tcxfqda ‘主的兴奋强度

cjyzxfqd=cjyzxfqd+jyzxfqd／5

end if

……

call xfjy(jxfrecordnumber,qlabel,subjyzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk，z)

call xfjy(cxfrecordnumber,qlabel,subjyzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk，z)

call xfjy(xfrecordnumber,qlabel,subjyzrecordnumber,qzqtime,zrecordnumber, zqtime,zsk，z)

（状态中枢的基本记忆柱群的奖记忆柱与惩记忆柱的兴奋与当时的奖惩预期强度密切相关，又进一步影响到主的兴奋强度。结合对主注意目的对象与主注意对象的讨论，我们可以看到，某时发生的奖惩及奖惩预期事件会强烈的影响状态中枢兴奋的记忆柱群，并产生记忆）

通过上面的讨论及程序片段可知：奖赏使对象（主注意目的对象，主注意对象，亚主注意目的对象）之间记忆联系得到强化，对象兴奋的越强、奖赏越强，得到的强化越强。惩罚使对象之间建立的记忆联系，使它们相互抑制，对象兴奋的越强、惩罚越强抑制越强。

通过长期的奖惩学习所建立的记忆系统，使在实现主注意目的的过程中，被主注意目的对象易化的越强的往往是与奖惩关系越强的，在注意目的，亚主注意目的，主注意对象，环境刺激下，注意与回忆的往往是与奖惩关系密切的对象。（对惩罚进行注意，有利于逃避惩罚。）

二、基本功能的论述。

动力预期是对动力预期中枢的兴奋，这种兴奋是经验兴奋。

对一个对象进行注意与回忆时，必然会包含一群主注意对象，因为只有这样才能对另一个对象产生足够的回忆。回忆时，它的主注意对象兴奋后，要传出兴奋到另一个对象所包含的主注意对象中去，而且要使另一个主注意对象的兴奋足够强。即使是习惯性兴奋也要几个主注意对象才能完成过渡。

奖惩中枢对奖惩预期中枢的兴奋具有先天的特点，而皮质联络区的兴奋具有后天学习的特点。

环境条件下，某一事件（比如对某一对象的注意）带来惩罚（或者奖赏），环境条件就会与这一事件建立记忆联系，在状态中枢如果相同环境条件或者相似环境条件再兴奋就会传出兴奋抑制（或者易化兴奋）这一事件。

主注意目的对象带来奖惩，它就会与奖惩建立记忆联系，主要是在状态中枢。具体的见操作系统的case1段的编程。主注意目的对象在状态中枢对应的记忆柱与奖惩中枢及奖惩预期中枢在状态中枢对应的记忆柱之间能建立记忆联系。

对象与主注意目的对象建立记忆联系，在一定时间内，主注意目的对象在状态中枢易化兴奋它，如果在这段时间内带来奖惩，就会在状态中枢的记忆柱之间建立记忆联系。对象兴奋后，它的兴奋会延续一小段时间，在这段时间内，发生奖惩，它就会与之建立记忆联系。具体的编程见主注意对象的兴奋记忆的那一段的编程。Case3

不同的对象在不同的环境条件下会与奖惩预期中枢建立不同的记忆联系。

奖惩预期问题实际也是回忆问题，影响记忆柱兴奋的一些因素，在奖惩预期中也适用。

影响奖惩预期中枢兴奋的强弱的因素有，奖惩中枢，状态中枢，皮质联络区。对它的影响因素，主要有主注意对象、主注意目的、亚主注意目的，在某一刻影响最强的是主注意对象，其次是目的对象，然后是亚主注意目的对象。也就是说，如果智能机器人选择不同的目的、亚主注意目的及主注意对象进行奖惩预期，所获得的动力预期是会不同的。

所以回忆时，目的产生的条件，以什么对象作为主注意对象，什么对象作为主注意目的对象，什么对象作为亚主注意对象，对那些亚主注意对象进行强化，强化的先后顺序，都会强烈的影响到在奖惩预期中枢的回忆，也就是预期动力的大小。正确的选择主注意目的对象，主注意对象，亚主注意目的对象，预期强化对象，有助于我们完成目的适应环境，从而获得奖赏，而得到强化，错误的会被抑制。

这样，通过长期的奖惩学习，智能机器人会获得下面的能力，在什么情况下产生什么样的主注意目的对象，回忆时以什么对象的内容组成作为主注意对象，对那些条件进行回忆注意，等等，这些能力都使智能机器人的思想行为与环境相适应。

三、高级功能的论述。

奖惩预期是奖惩学习经验的预期。

目的对象的转换：

智能机器人能够通过调节注意的对象，而控制动力预期的大小，只要能适应环境就可以了。

智能机器人在不同的发展时期，针对同一个目的对象，它的内容与流程是不同的。比如在学习的早期，智能机器人注意到一对象，想去获取它，而它没有自己如何获取的能力，及自己获取的相关记忆，而有借助监护人获取对象的记忆。它回忆起自己发出什么信息，监护人就会帮助它获得这个对象，这样发出这个信息就会被赋予动力，成为主注意目的……。而在智能机器人通过学习获得这样的能力后，它在想获得这个对象时，便可能回忆到自己如何去获得它，……。

两个不相容的对象的动力预期，一个大一个小，但相差不是特别大。可以在相似的环境条件下进行动力预期（它们都能预期获得相应动力值）动力预期大到一定值的对象，能较容易的成为主注意目的对象。在一环境条件下A、B对象产生的动力预期分别是a、b，a>b*（1+30%），在这一环境条件下，B成为主注意目的对象，在以B进行回忆时A成为主注意对象，A会兴奋动力预期中枢，而产生动力预期，其值会与a相近，A就会自动成为主注意目的对象。反过来，在A是主注意目的对象时，B就不会成为主注意目的对象。

两个对象相容，先实现那个对象是经验预期的结果。其实现过程见下段。

两个对象不相容，一个对象（a）由两个对象（a1,a2）组成，a1与a2相容而另一个对象b的动力预期值小于a的，而大于a1及a2的。预期之后，以a作为主注意目的对象，预期到要实现a就要先实现a1，这时对对象进行动力预期的动力预期值下降，实现a1成为目的，回忆起b，b的动力预期值在a1目的条件下可能并不高，如果高，就会与a进行比较，从而a1仍然会成为主注意目的对象，再注意b就会带来惩罚，在实现a及a1的过程中b会被抑制。

目的回忆方向与内容是经验奖惩学习的结果。

智能机器人形成某一目的，在这一目的下，一对象刺激智能机器人或者其被回忆，会兴奋动力预期中枢，产生经验动力预期。如果动力增加30%，新的对象就会成为新的目的对象，这一目的对象会通过记忆易化兴奋相应对象，由于这一目的对象与前目的对象及亚主注意目的对象、环境等建立有记忆联系，它的回忆方向就受到它们及记忆经验的影响。最终通过长期的奖惩学习（奖惩学习的机理见我相关的文章），目的的回忆方向与内容会与前提及环境相适应。智能机器人的奖惩需要我们设计适当的学习环境与过程。机器人的学习文化的设计。

主注意目的对象下，一对象的组成分别持续成为主注意对象，产生动力预期（经验预期），总的动力预期值增加超过30%，就会成为主注意目的对象，对它重新进行动力预期（这种能力可以通过长期奖惩学习获得。由于在条件有限，或者条件“不当”的情况下，对象的动力预期值可能不准（不是我们完成任务所需要的），一些情况下只有重新通过动力预期，获得适当的动力预期值，从而才能获得正确的思想行为方向。），动力预期预期值与前主注意目的对象的动力预期值进行比较，它们分兼容与不兼容。如果不兼容，则在不相容的情况下确定主注意目的对象。如果相容，则预期在什么情况下实现这两个对象，如何实现。这是比较好的一种思维模式。

在条件下（包括前一主注意目的对象，注意的环境条件等，也就是影响目的的回忆产生因素），形成一目的，根据目的对象进行经验回忆。一般有两个方向，一是直接去思想行为实现目的（这种情况一般是在有明确的实现这一目的的情况下，或者完成目的的经验还不丰富的情况下），另一种情况是对目的对象的动力再进行预期……，从而形成“新的”目的，再实现目的（不是对目的对象的动力进行预期），在实现目的地过程中，一对象（是刺激产生，或者回忆产生）的动力……，目的完成后，目的对象的动力预期可能下降，根据经验回忆可能产生新的目的对象……。

想象、推理、行为等都是目的下的想象、推理

想象、推理等都是目的下的想象推理，都是通过奖惩学习获得的。想象一个对象或者过程，以这个对象或者过程的组成部分为主注意对象并分配了大量的注意力，进行回忆，这个对象与过程便能被回忆起，即使在环境条件下它没有发生，只要对它的易化兴奋足够，便能被兴奋。

如果对环境对象分配大量注意力，而要回忆的对象的相关内容不作为主注意对象，它分配的注意力便会有限，便不会被轻易兴奋，其它相关条件在回忆的过程中都会发生重要影响，从而产生普通回忆。

想象与回忆的目的都是在特殊条件下产生，它们发生，发展的过程与内容都是在长期的奖惩学习下形成的。

奖惩系统形成的过程。

才设计出来的智能机器人，没有各种与环境相适应的能力（根据需要运动的能力），也无奖惩记忆，要有奖惩记忆就必须经历奖惩。

所以我们在设计智能机器人时，在运动能力学习的早期，要让一些运动控制中枢，有有序的自发激活兴奋的能力，同时要有中介奖惩刺激，这样它才会自发学习获得一些运动能力。具体的学习机制与过程见我相关的文章（关于智能机器人的行为能力的奖惩学习与视觉注意的一些文章）。

有了奖惩记忆就会有奖惩预期，就会通过学习形成与环境相适应的目的。

智能机器人的学习，也应该是一种文化学习，我们要设计诱导它的学习环境与过程，让它们尽快的通过学习获得各种与环境相适应的能力与奖惩系统，同时它的奖惩系统还要对人类有益。

对智能机器人的学习，我们的设计与诱导使它的学习具有正确的方向，但更多是智能机器人的自主学习，它要通过学习获得相对完善的自主学习能力。通过奖惩学习，它会获得好的归因能力，模仿能力，探索及好奇心，……。（见我的拟人下的相关章节）

路过

雷人

握手

鲜花

chenghwn的个人空间 https://bbs.bioguider.com/?68 [收藏] [复制] [分享] [RSS]

日志

智能软件的目的、奖惩预期问题

全部作者的其他最新日志

评论 (0 个评论)

chenghwn